Markov Chain Monte Carlo sampling for dependency trees
نویسنده
چکیده
In dieser Arbeit werden Markov Chain Monte Carlo (MCMC) Methoden für das Sampling von Dependenzbäumen entwickelt. Dependenzbäume sind ein Formalismus für die syntaktische Annotation von natürlichsprachlichen Sätzen. Dieser Formalismus hat in den letzten Jahren immer mehr an Bedeutung gewonnen und zur gleichen Zeit sind die Modelle, die zur Generierung und Verarbeitung von Dependenzbäumen verwendet werden, immer komplexer geworden. Diese neuen Modelle machen es notwendig, Approximationsalgorithmen zu verwenden um Erwartungswerte und Optima zu berechnen. Beides wird häufig für Machine Learning Ansätze benötigt. Eine Klasse solcher Algorithmen sind die sogenannten Markov Chain Monte Carlo Techniken. Da Dependenzbäume eine starke innnere Struktur haben, besonders wenn linguistisch motivierte Teilmengen betrachtet werden, können sie nicht ohne weiteres durch MCMC Methoden bearbeitet werden. Die vorliegende Arbeit entwickelt Techniken, die die Anwendung von MCMC für Modelle von Dependenzbäumen unter sehr generellen Umständen ermöglichen. Es werden sowohl lokale Methoden entwickelt, die einen kleinen Teil eines Dependenzbaumes in einem Schritt verändern, als auch globale Ansätze, die eine komplette Neustrukturierung erlauben. Nach der Vorstellung der verschiedenen Algorithmen werden diese anhand von zwei Problemen evaluiert. Das erste ist ein künstliches Problem, welches eine tiefere Einsicht in die verschiedenen Methoden erlaubt. Das zweite ist ein unüberwachtes Lernproblem, welches untersucht wie sich die Techniken bei größeren, untereinander verbundenen Daten verhalten.
منابع مشابه
TREE-STRUCTURED STICK BREAKING PROCESSES FOR HIERARCHICAL DATA By Ryan P. Adams, Zoubin Ghahramani and Michael I. Jordan
Many data are naturally modeled by an unobserved hierarchical structure. In this paper we propose a flexible nonparametric prior over unknown data hierarchies. The approach uses nested stick-breaking processes to allow for trees of unbounded width and depth, where data can live at any node and are infinitely exchangeable. One can view our model as providing infinite mixtures where the component...
متن کاملTree-Structured Stick Breaking for Hierarchical Data
Many data are naturally modeled by an unobserved hierarchical structure. In this paper we propose a flexible nonparametric prior over unknown data hierarchies. The approach uses nested stick-breaking processes to allow for trees of unbounded width and depth, where data can live at any node and are infinitely exchangeable. One can view our model as providing infinite mixtures where the component...
متن کاملContributed Discussion on Article by Pratola
Pratola (2016) introduces a novel proposal mechanism for the Metropolis–Hastings step of a Markov chain Monte Carlo (MCMC) sampler that allows efficient traversal of the space of latent stochastic partitions defined by binary regression trees. Here we discuss two considerations: the first is the use of the new proposal mechanism within a population Markov chain Monte Carlo sampler (Geyer, 1991)...
متن کاملA local graph rewiring algorithm for sampling spanning trees
We introduce a Markov Chain Monte Carlo algorithm which samples from the space of spanning trees of complete graphs using local rewiring operations only. The probability distribution of graphs of this kind is shown to depend on the symmetries of these graphs, which are reflected in the equilibrium distribution of the Markov chain. We prove that the algorithm is ergodic and proceed to estimate t...
متن کاملTerrestrial Image Based 3d Extraction of Urban Unfoliaged Trees of Different Branching Types
In this paper we propose extensions to a generative statistical approach for three-dimensional (3D) extraction of urban unfoliaged trees of different branching types from terrestrial wide-baseline image sequences. Unfoliaged trees are difficult to extract from images due to their weak contrast, background clutter, and particularly the possibly varying order of branches in different images. By c...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
عنوان ژورنال:
دوره شماره
صفحات -
تاریخ انتشار 2014